بازنمایی و توصیف شکل زیر-کلمات چاپی فارسی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده مهندسی برق و کامپیوتر
- نویسنده هما داودی
- استاد راهنما احسان اله کبیر
- سال انتشار 1393
چکیده
بر خلاف بیشتر تحقیقات انجام شده در زمینه توصیف شکل کلی کلمات، که به استخراج ویژگیهای یکسان از تمام کلمات میپردازند، در این رساله، هر زیر-کلمه بر اساس خصوصیات شکلی آن توصیف میشود. در روش پیشنهادی، ابتدا بخشهایی از شکل زیر-کلمه به عنوان مناطق مهم انتخاب میشوند و سپس، از این مناطق برای ارائه توصیف مناسب آن زیر-کلمه استفاده میشود. مناطق مهم، بخشهایی از شکل زیر-کلمه هستند که بین نمونههای آن بیشترین شباهت را دارند و در عین حال بیشترین تفاوت را با نمونههای سایر زیر-کلمات ایجاد میکنند. در این تحقیق، دو روش را برای تعیین این مناطق پیشنهاد میکنیم. در روش اول، حروف تشکیل دهنده زیر-کلمات را با استفاده از معیار آنتروپی بررسی کرده و حروف اول هر زیر-کلمه را به عنوان حرف شاخص آن انتخاب میکنیم. از این حروف، در ارائه توصیف مناسب زیر-کلمات استفاده میشود. در روش دوم، به جای بررسی حروف، مناطق مختلف محلی شکل را، با استفاده از معیارهای سنجش بازیابی، بررسی کرده و مناطق شاخص زیر-کلمات را تعیین میکنیم. با استفاده از این مناطق، روش دیگری را، مبتنی بر گراف، برای توصیف شکل زیر-کلمات ارائه میکنیم. روشهای پیشنهادی برای توصیف شکل زیر-کلمات را، در سه سامانه مختلف کاهش اندازه دیکشنری به کار میبریم. در هر سه سامانه، روشهای توصیف سراسری و محلی شکل، به نحوی موثر با هم ترکیب شدهاند. سامانههای پیشنهادی، روی مجموعههای مختلفی از تصاویر زیر-کلمات اعمال شده و نتایج بررسی شدند. در اعمال روشهای پیشنهادی روی یک دیکشنری 6895 عضوی از تصاویر بدنه زیر-کلمات چاپی فارسی، بیشترین میزان کاهش اندازه دیکشنری معادل 83/97% در دقت حدود 100% به دست آمد.
منابع مشابه
بازیابی متون چاپی فارسی بر اساس پرس و جوی کلمات
در این پایان نامه روشی جدید برای بازیابی و جستجوی کلمات فارسی از میان متون تصویری فارسی ارائه شده است. همچنین روشی مبتنی بر اندازه و شکل نقاط موجود در مستند پس از آستانه گذاری، جهت تشخیص قلم و اندازه قلم مستندات تصویری فارسی ارائه شده است. روش ارائه شده برای تشخیص قلم از اولین روش هایی می باشد که می تواند با دقت بسیار بالایی اندازه قلم مستند فارسی را هم تشخیص دهد. برای ارزیابی روشهای ارائه شده ...
15 صفحه اولمدلسازی بازشناسی واجی کلمات فارسی
Abstract of spoken word recognition is proposed. This model is particularly concerned with extraction of cues from the signal leading to a specification of a word in terms of bundles of distinctive features, which are assumed to be the building blocks of words. In the model proposed, auditory input is chunked into a set of successive time slices. It is assumed that the derivation of the underly...
متن کاملساخت موضوعی کلمات مشتق در زبان فارسی
ساخت موضوعـی بـه فهرست موضوعهـای یک محمـول اطلاق میشود. مثلاً، فعل «خورد» دو موضوع و فعل «داد» سه موضوع در ساخت موضوعی خود دارد. معمولاً ساخت موضوعی افعال پس از افزودهشدن یک وند اشتقاقی به آنها تغییر میکند، بهگونهای که ساخت موضوعی مشتق حاصله با ساخت موضوعی کلمۀ پایه متفاوت است. در مقالة حاضر، ساخت موضوعی مشتقات فعلی زبان فارسی و تأثیر وند افزایی بر ساخت موضوعی کلمة پایه را مطالعه میکنیم. چ...
متن کاملکلمات مرکبِ «انعکاسی» در فارسی: انگارۀ دستوریشدگی
انعکاسیها در مطالعات زبانشناسی به آن دسته از واحدهای زبانی اطلاق میشوند که بهدلیلِ رمزگذاری هممرجعبودگی میان فاعل و موضوع دیگر فعل (مفعول مستقیم یا غیرمستقیم) یا تأکید برگروه اسمی در جمله بهکار گرفته میشوند. مختصر حاضر بر آن است تا به بررسی آن دسته از کلمات مرکب در زبان فارسی بپردازد که با عناصر انعکاسیِ: «خویش» و «خویشتن» و عنصر انعکاسی و انعکاسیِ تأکیدیِ «خود» پدید میآیند. این بررسی با ه...
متن کاملطراحی و پیادهسازی یک سیستم بازیابی اسناد چاپی فارسی
هدف: معرفی، دستهبندی، و نقد پژوهشها دربارۀ سیستمهای بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روششناسی: شیوهای جدید با رویکرد جداسازی، طراحی و سپس پیادهسازی شده است. برای آموزش و آزمایش سیستم، پایگاه دادهای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این دادهها برای آموزش و نیمی...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده مهندسی برق و کامپیوتر
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023